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摘要 : 人 格 影响 着 个 体 的 工作 生活 方式 , 对 于 个 体 的 心理 朴 导 、 职 业 发 展 等 具有 重要 指导 意 
义 。 传 统 方法 通过 量 表 测 评 人 格 得 分 存在 个 体 拒绝 回答 、 盲 目 作 答 等 问题 ,近年 来 随 着 机 器 
学 习 的 发 展 为 人 格 识别 提供 了 新 的 思路 。 本 文 使 用 被 试 者 自我 介绍 视频 和 大 五 人 格 量 表 得 
分 ， 经 过 关键 点 提取 、 特 征 降 维 、 建 模 、 迭 代 调 参 等 步骤 ， 针 对 不 同人 格 维度 得 到 不 同 的 预 
测 模型 。 测 试 结 果 表 明 , 基于 自我 介绍 视频 的 人 格 预测 模型 在 各 维度 都 接近 或 达到 中 等 相关 ， 
能 够 提供 无 侵扰 的 人 格 自动 识别 ， 为 人 格 测量 提供 了 新 的 思路 。 
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Abstract: Personality affects the individual’s work and life style, and has 
important guiding significance for the individual’ s psychological counseling 
and career development. Traditional methods use personality scales to evaluate 
personality scores, which include problems such as individual refusal to answer 
and blind answering. In recent years, with the development of machine learning, 
new ideas have been provided for personality recognition. This article uses 
participants’ self-introduction videos and Big Five personality scale scores to 
obtain different prediction models for different personality dimensions through 
key point extraction, feature dimension reduction, modeling, and iterative 
tuning. This article uses participants’ self-introduction videos and Big Five 
personality scale scores to obtain different prediction models for different 
personality dimensions through key point extraction, feature dimension 


reduction, modeling, and iterative tuning. The test results show that the 


personality prediction model based on the self-introduction video is close to 


or achieves medium correlation in all dimensions, and can provide non-intrusive 


automatic personality recognition,, which provides new ideas for personality 
measurement. 
Keywords: Self-Introduction, Big Five Personality, Machine learning, 


Personality prediction 
=> 
1 引言 


人 格 是 个 体 心 理 特征 的 统一 , 稳定 而 持久 , 决定 着 个 体 的 外 显 行为 和 内 隐 行 
为 一 。 人 格 影响 着 个 体 对 于 个 人 境遇 的 感知 , 也 影响 着 个 体 在 某 种 情景 下 的 行为 ， 
进而 在 一 定 程度 上 决定 人 们 的 生活 方式 、 心理 状态 和 社会 角色 。Coasta 等 "通过 
对 1100 名 被 试 的 幸福 感 和 性 格 倾向 进行 研究 ， 发 现 外 倾 性 和 神经 质 是 影响 主观 
幸福 感 的 主要 因素 。 刘 玉 新 等 的 研究 表明 ， 人 格 可 能 通过 影响 个 体感 知 直 接 影 
响 大 学 生 压 力 或 者 通过 影响 压力 事件 的 发 生 概 率 间 接 影响 大 学 生 压 力 。Seibert 
等 调查 人 格 与 职业 成 就 的 关系 , 发现 主动 型 人 格 与 创新 、 政 治 知识 和 职业 积极 性 
呈正 相关 , 进而 与 职业 发 展 和 职业 满意 度 有 积极 关系 “, 而 大 五 人 格 中 的 外 倾 性 、 
神经 质 、 宜 人 性 、 开 放 性 也 与 职业 满意 度 和 薪水 水 平 有 不 同 的 相关 关系 ”。 

人 格 识别 在 职业 规划 、 求职 入 职 和 入 学 心理 健康 评估 等 领域 都 有 应 用 。 目前 
主要 使 用 人 格 问卷 来 测量 人 格 , 但 由 于 问卷 是 由 本 人 填写 , 在 入 学 求职 等 特定 场 
合 ， 人 们 很 有 可 能 会 虚假 作答 以 获得 更 多 的 机 会 。 由 于 人 们 较 难 在 语音 、 表 情 
等 非 言 语 表 现 上 伪装 自己 , 所 以 自 机 器 学 习 方 法 快速 发 展 以 来 , 很 多 研究 者 尝试 
使 用 如 语音 特征 ””、 字 迹 特征 "或 网 络 行为 特征 等 非 言 语 线索 建立 人 格 的 自 
动 识别 模型 。 鉴 于 稳定 的 人 格 特质 更 明显 地 从 身体 和 面部 线索 而 不 是 语音 中 体现 
出 来 ”"”， 人 们 希望 能 够 使 用 面部 活动 预测 人 格 ， 以 期 达到 更 简便 而 贴近 实际 的 应 
用 场景 和 更 好 的 预测 效果 。 面部 活动 预测 心理 指标 已 被 用 于 预测 情绪 中、 抑郁 
和 自 闭 症 “等 多 个 领域 ， 建 模 方法 主要 有 使 用 OpenPose. OpenCV 等 开源 库 识别 
面部 关键 点 坐标 后 将 坐标 变化 的 统计 学 特征 输入 传统 机 器 学 习 模 型 , 或 将 视频 分 
帧 后 直接 输入 神经 网 络 模 型 。 目 前 已 有 很 多 研究 使 用 问答 视频 或 演讲 视频 建立 人 
格 预测 模型 ”””“, 但 上 述 研 究 中 所 使 用 的 视频 材料 对 用 户 的 活动 有 所 限制 ， 在 一 
定 程度 上 降低 了 预测 模型 的 生态 性 。 与 其 他 视频 相 比 ， 自 我 介绍 视频 情绪 较为 中 
性 , 可 以 减少 情绪 本 身 导致 的 面部 活动 ”和 人 格 不 同 导致 的 面部 情绪 表达 的 不 同 
中 ， 能 够 排除 一 部 分 无 关 变 量 的 影响 。 

本 文 使 用 被 试 的 自我 介绍 视频 作为 实验 材料 ， 使 用 OpenPose 记录 被 试 自我 
介绍 时 的 面部 关键 点 坐标 , 提取 坐标 变化 的 统计 学 特征 作为 输入 特征 , 将 被 试 的 
大 五 人 格 问卷 得 分 作为 标注 , 使 用 文 持 向 量 机 模型 分 别 建立 人 格 五 个 维度 的 预测 
模型 ,希望 能 为 人 格 测量 提供 新 的 方法 。 
2 数据 采集 
2.1 被 试 

我 们 从 学 校 中 招募 了 240 名 被 试 , 包括 本 科 生 、 研 究 生 和 教 职 工 人 员 。 其 中 
IÆ 110 人 (45. 8%); 女生 130 人 (54. 1%); 学 历 方 面 : 本 科 毕 业 及 以 下 : 70 人 
(29.1%); MEA: 155 A (64. 6%); 硕士 毕业 及 以 上 : 15 A (6.3%), 平均 
年 龄 23 土 3 岁 。 

2.2 研究 工具 

(1) 大 五 人 格 量 表 (Big Five Inventory, BFI), H John 等 人 于 1991 年 编 

制 中 ,分 别 测量 了 大 五 人 格 的 外 倾 性 、 宜 人 人 性、 尽责 性 、 神 经 质 和 开放 性 五 个 维 


度 。 共 有 44 道 题 ， 所 以 简称 为 BFI-44， 每 道 题 为 一 个 包括 1-2 个 最 能 表达 特定 
大 五 人 格 维度 的 人 格 描述 词汇 的 短语 。 要 求 被 试 进行 五 点 量 表 评 分 , 其 中 1 代表 
“非常 不 同意 ” 5 代表 “非常 同意 ” BFI-44 量 表 各 分 测验 内 部 一 致 性 信和 度 均 高 
于 或 接近 0.8，3 个 月 后 的 重 测 信 度 高 于 0. 8。 

(2) OpenPose 实时 系统 ， 是 由 卡 内 基 梅 隆 大 学 推出 的 一 个 开源 项 目 ”， 可 
以 实现 身体 躯干 、 面 部 、 手 指 和 脚趾 的 关键 点 检测 。0penPose 面部 关键 点 检测 与 
手 部 关键 点 检测 的 训练 方法 相同 “， 使 用 多 摄像 系统 构建 检测 系统 , 检测 到 关键 
点 后 自 下 而 上 地 聚 类 出 人 脸 ”。 本文 使 用 OpenPose 系统 记录 面部 70 个 关键 点 的 
实时 坐标 ， 如 图 2-1 所 示 ， 用 坐标 变化 表示 面部 活动 作为 预测 模型 的 输入 。 
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图 2-1 面部 70 个 关键 点 位 置 示 意图 


2.3 采集 流程 

在 被 试 登记 个 人 信息 和 签署 知情 同意 书后 ,让 被 试 坐 在 高 清 摄像 机 前 ,用 普 
E 绍 。 可 以 发 给 被 试 一 份 演讲 提纲 ， 提 纲 包 括 以 下 
三 个 问题 

(1) 请 介绍 下 你 自己 ， 并 详细 的 介绍 一 下 你 的 家 乡 ; 

(2) 请 详细 介绍 你 的 专业 ， 和 你 在 读书 期 间 的 研究 工作 ; 

(3) 请 介绍 一 下 你 对 未 来 的 规划 ， 想 从 事 什么 样 的 工作 。 

主 试 要 求 被 试 做 完 自我 介绍 后 填写 BFI-44 人 格 量 表 ， 并 向 其 说 明 量 表 、 视 
频 及 个 人 信息 仅 供 研究 使 用 ， 且 向 被 试 承诺 保密 。 
3 方法 
3.1 数据 预 处 理 

数据 清洗 后 得 到 同等 长 度 的 被 试 个 体 的 自我 介绍 视频 ， 使 用 OpenPose 开源 
系统 逐 帧 提取 视频 中 的 面部 关键 点 坐标 后 , 我 们 将 各 关键 点 平移 至 以 第 0 个 关键 
点 为 坐标 原点 的 二 维 坐标 系 中 , 以 平衡 被 试 与 摄像 机 的 空间 位 置 的 不 同 而 导致 的 
坐标 差异 ， 并 计算 帧 与 帧 之 问 各 关键 点 坐标 的 差异 区 换 原 始 坐 标 数据 。 

随后 使 用 平均 值 等 深 分 箱 法 对 帧 间 的 大 异 进行 下 滑降 品 , 以 降低 异 常 值 对 结 
果 的 影响 ， 增 加 粒度 ， 箱 子 深度 设置 为 参数 a。 平滑 后 ， 对 每 一 个 面部 关键 点 的 
ee ed 量 纲 的 时 域 特征 
如 最 大 值 、 最 小 值 、 均 值 、 标 准 差 和 均 方 值 等 ， 和 无 量 纲 的 时 域 特征 如 偏 度 、 峰 
度 和 脉冲 因子 等 共 30 维 ; 通过 傅 里 叶 变 换 将 信号 转换 到 频率 域 ， 然 后 选取 频 域 
中 前 五 个 低频 分 量 的 幅 值 作为 频 域 特征 , 共 5 维 。 对 每 一 个 关键 点 进行 特征 提取 
后 ， 我 们 得 到 了 4900 维 ( 即 702x35 维 ) 的 特征 ， 这 些 特 征 能 够 较为 完整 地 包 
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含 着 面部 活动 的 时 间 方 面 的 特性 和 频率 方面 的 特性 。 

提取 特征 后 , 我 们 选择 数据 标准 化 和 数据 归 一 化 两 种 方法 平衡 关键 点 离 坐 标 

原点 的 距离 对 结果 的 影响 ， 设 置 数据 缩放 的 方式 为 参数 b， 然 后 使 用 主 成 分 分 析 
CPCA) 的 方法 进行 特征 降 维 , 我 们 设置 降 维 后 的 特征 维 数 为 参数 c。 数 据 预 处 理 
的 流程 图 如 图 3-1 (a) 所 示 。 

3.2 建立 模型 

为 了 训练 得 到 被 试 的 大 五 人 格 的 预测 模型 , 我 们 使 用 回归 模型 而 不 是 分 类 模 
型 进行 建 模 。 与 线性 回归 相 比 ，Drucker 2°" 1997 年 提出 的 支持 向 量 回归 方 
法 (Support Vector Regression, SVR) 将 需要 求解 的 非 线性 函数 通过 非 线性 变 
换 映 射 到 更 高 维 的 特征 空间 , 通过 在 高 维 空间 中 求解 线性 函数 来 获得 原 非 线性 函 
数 的 解 ， 适合 解决 非 线 性 、 高 纬度 的 问题 。 由 于 面部 活动 特征 维 数 很 高 ， 且 单个 
特征 与 结果 不 是 线性 关系 , 我 们 选择 使 用 SVR 分 别 建立 人 格 五 个 维度 的 分 数 预 测 
模型 ， 建 模 流 程 图 如 图 3-1 (b) Aras. 

SVR 模型 根据 核 函 数 的 类 型 可 分 为 fbf-SVR、poly-SVR、sigmoid-SVR 和 
LinearSVR 四 种 ， 由 于 无 法 确定 低 纬 度 空间 到 高 纬度 空间 的 具体 映射 关系 ， 所 以 
我 们 将 SVR 的 类 型 设置 为 参数 4， 以 便 之 后 根据 交叉 验证 的 结果 进行 调 参 的 时 候 
为 大 五 人 格 的 每 个 维度 选择 合适 的 核 函 数 ， 并 将 与 核 函 数 相关 的 惩罚 系数 、 核 函 
数 系数 和 核 函 数 最 高 次 数 三 个 超 参 数 设置 为 参数 e、f、g， 各 参数 取 值 范围 如 表 
3-1 所 示 。 


表 3-1 模型 参数 的 取 值 范围 


参数 取 值 范围 

a [3, 5, 7, 9, 11] 

b [1: 标 准 化 , 2: 归 一 化 ] 

c [55, 60, 65, 70] 

d [1:rbf-SVR, 2:poly-SVR, 3:sigmold-SVR, 4:LinearSVR] 
e [0. 01, 0. 1, 1, 10, 100] 

f [0. 00001, 0. 0001, 0. 001, 0. 01, 0. 1, 1, 10, 100] 

g [2, 3, 4, 5, 6] 


图 3-1 数据 预 处 理 过 程 (a) 以 及 模型 建立 过 程 (b) 流程 图 


3.3 评估 方法 及 结果 

本 文 使 用 被 试 大 五 人 格 问卷 各 维度 的 得 分 与 模型 预测 分 数 的 皮尔 逊 相关 系 
数 作为 评估 模型 性 能 的 指标 , 使 用 交叉 验证 的 方法 平衡 训练 集 和 测试 集 的 划分 对 
结果 的 影响 。 皮 尔 逊 相关 系数 (Pearson correlation coefficient) 是 评估 回 
归 模 型 性 能 的 常用 指标 ， 其 值 介 于 -1 与 1 之 间 ， 值 的 绝对 值 越 大 ， 表 示 相 关 性 
越 强 。 在 进行 大 量 实验 后 ,本 研究 为 大 五 人 格 各 维度 分 数 的 预测 模型 找到 了 最 佳 
参数 配置 ， 最 优 参数 选择 如 表 3-2 所 示 。 

KR 3-2 大 五 人 格 各 维度 预测 模型 的 参数 选择 


a b C d e f g 
外 倾 性 7 2 55 3 1 100 2 
宜人 性 7 2 60 3 0.01 100 2 
尽责 性 9 2 65 2 0.1 1 5 
神经 质 9 2 55 3 1 10 2 
开放 性 3 1 60 4 0. 01 0. 00001 2 


本 研究 在 计算 得 到 相关 系数 评估 指标 的 基础 上 ,进行 显著 性 检验 。 本 文采 用 
五 折 交 叉 验 证 ， 显 著 性 检验 中 自由 度 为 46， 得 到 相应 的 t EM Pt, KEAT 
各 维度 预测 模型 的 性 能 评估 如 表 3-3 所 示 。 模型 评估 结果 如 下 : 在 大 五 人 格 的 五 
个 维度 中 ， 外 倾 性 、 宜 人 性 、 尽 责 性 、 神 经 质 四 个 维度 的 预测 模型 均 表现 为 极 显 
著 水 平 的 正 相 关 ， 开 放 性 维度 的 预测 模型 表现 为 显著 性 水 平 的 正 相 关 。 


表 3-3 大 五 人 格 各 维度 预测 模型 的 性 能 评估 


相关 系数 t P 
外 倾 性 0. 383278 2. 779 《0. 01 
宜人 性 0. 440097 3. 316 <0. 01 
尽责 性 0. 408663 3. 276 《0. 01 
神经 质 0. 428038 3.221 <0. 01 
开放 性 0. 31681 2. 301 <0. 05 


4 讨论 

本 文 基于 被 试 者 自我 介绍 的 面部 视频 进行 建 模 ， 预 测 其 大 五 人 格 的 外 倾 性 、 
宜人 性 、 尽 责 性 、 开放 性 、 神 经 质 五 个 维度 , 针对 人 格 的 每 个 维度 分 别 进行 建 模 。 
过 程 中 考虑 的 参数 有 7 项 : 均值 等 深 分 箱 法 的 箱 深度 、 数据 标准 化 或 归 一 化 、 PCA 
降 维 后 特征 数目 、SVR 的 核 函 数 选 择 、SVM 惩罚 系数 、 核 函数 系数 (参数 gamma), 
核 函 数 最 高 次 数 (参数 degree)， 其 中 前 3 项 为 预 处 理 过 程 涉及 的 参数 ， 后 4 项 
为 模型 训练 过 程 中 所 涉及 的 参数 。 

本 文 所 训练 模型 的 输出 是 各 维度 人 格 的 预测 分 数 , 根据 样本 集 大 小 采用 五 折 
交叉 验证 对 模型 进行 训练 评估 , 模型 的 评估 指标 为 量 表 测评 得 分 与 模型 预测 得 分 
的 皮尔 逊 相关 系数 。 在 建 模 初 期 ， 对 于 不 同人 格 维度 模型 参数 的 选择 是 粗糙 的 ， 
使 用 初步 训练 得 到 的 模型 进行 预测 ， 以 交叉 验证 得 到 的 平均 相关 系数 为 指导 , 通 
过 控制 变量 , 不 断 调整 参数 ， 其 中 参数 的 调整 范围 由 表 3-1 所 规定 , 不断 迭 代 直 
到 获得 比较 稳定 的 模型 ， 并 确定 相关 参数 。 

与 传统 问卷 量 表 方 法 相 比 , 通过 视频 数据 建 模 预 测 人 格 的 方法 具有 明显 的 优 
势 ， 既 排除 了 场地 、 时 间 、 被 试 人 数 等 客观 因素 的 限制 ， 也 避免 了 被 试 者 对 量 
问题 排斥 或 不 真实 作答 等 主观 因素 的 限制 , 同时 也 大 大 节省 了 人 力 物 力 , 能 够 大 


规模 高 频率 进行 人 格 测试 。 

本 文 所 采用 的 视频 数据 是 被 试 者 的 自我 介绍 , 在 建 模 中 使 用 到 的 有 效 数 据 是 
被 试 者 说 话 时 面部 关键 点 坐标 的 变化 ， 而 与 被 试 者 说 话 的 内 容 没 有 实质 性 关系 ， 
之 所 以 选择 自我 介绍 部 分 进行 研究 , 在 于 被 试 者 在 自我 介绍 时 , 情绪 一 般 为 中 性 ， 
较为 平稳 ， 尽 量 避 免 了 因 对 话 、 问 答 、 思 考 等 情景 诱发 情绪 的 干扰 ， 进 而 提高 了 
人 格 预测 的 准确 ' 

针对 不 同 的 人 格 维 度 迭 代 选 择 最 佳 的 模型 参数 , 表 3-2 显示 了 各 个 模型 的 不 
同 参数 。 相 较 于 不 同人 格 共用 一 个 模型 进行 预测 的 方法 ，5 个 人 格 维度 建立 5 个 
模型 的 优势 是 显著 的 , 一 方面 就 整体 而 言 , 不 同人 格 维度 之 间 存 在 着 明显 的 差异 ， 
客观 地 要 求 着 具体 人 格 具 体 分 析 ; 另 一 方面 就 个 体 而 言 ， 被 试 者 不 同人 格 维度 的 
占 比 是 不 同 的 ， 需 要 将 同一 视频 数据 分 维度 分 析 。 

人 格 预 测 模型 输出 的 是 不 同人 格 维度 的 分 数 而 非 人 格 分 类 , 采用 定量 地 描述 
方式 ， 更 加 精确 地 描述 了 人 格 预测 的 情况 ， 使 得 人 格 分 析 的 粒度 更 细 。 此 外 ， 由 
于 BFI-44 量 表 的 测评 结果 也 是 以 得 分 呈现 , 便于 和 本 研究 方法 进行 对 照 、 评 估 、 
分 析 。 


5 结论 与 展望 


本 文 以 被 试 者 自我 介绍 视频 数据 为 基础 ， 对 不 同人 格 维度 分 别 进行 建 模 ， 预 
测 人 格 得 分 , 并 以 人 格 量 表 测 评分 数 和 模型 预测 分 数 的 相关 系数 为 模型 评估 指标 ， 
最 终 获 得 5 个 人 格 维度 的 最 佳 预测 模型 。 根 据 相 关系 数 显示 ， 除 开放 性 外 ， 其 余 
维度 的 人 格 预测 结果 为 中 等 以 上 相关 。 开 放 性 维度 相关 性 较 弱 可 能 与 样本 量 较 小 
有 关 。 从 模型 预测 数据 上 看 ， 与 量 表 评 测 的 结果 相 比 有 较 高 的 准确 性 ， 说 明基 于 
自我 介绍 视频 建立 的 人 格 预测 模型 是 可 行 的 、 有 效 的 , 为 人 格 测量 提供 了 新 的 方 
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本 研究 的 视频 数据 是 在 指定 场地 集中 采集 的 , 为 了 进一步 打破 时 间 场 地 、 人 
力 物 力 的 限制 ， 可 以 让 被 试 者 根据 相应 提示 ， 使 用 手机 、 电 脑 等 自 有 设备 自行 录 
制 一 段 自我 介绍 的 视频 , 并 发 送 给 研究 者 , 虽然 可 能 会 增加 数据 预 处 理 的 工作 量 ， 
但 是 样本 量 可 以 大 大 扩充 ， 模 型 的 准确 性 和 生态 性 可 能 进一步 提升 。 另 外 ， 可 以 


= 将 模型 置 于 网 页 上 ， 对 于 普通 使 用 者 而 言 ， 只 用 将 个 人 的 视频 数据 上 传 至 云端， 
© 就 能 够 快速 了 解 自己 的 人 格 得 分 ， 该 措施 可 以 和 传统 量 表 一 样 达到 自 测 的 效果 。 
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